智能论文笔记

Goal-Aware Generative Adversarial Imitation Learning from Imperfect Demonstration for Robotic Cloth Manipulation

Yoshihisa Tsurumine , Takamitsu Matsubara

分类：机器人

2022-09-21

生成的对抗性模仿学习（GAIL）可以学习政策，而无需明确定义示威活动的奖励功能。盖尔有可能学习具有高维观测值的政策，例如图像。通过将Gail应用于真正的机器人，也许可以为清洗，折叠衣服，烹饪和清洁等日常活动获得机器人政策。但是，由于错误，人类示范数据通常是不完美的，这会降低由此产生的政策的表现。我们通过关注以下功能来解决此问题：1）许多机器人任务是目标任务，而2）在演示数据中标记此类目标状态相对容易。考虑到这些，本文提出了目标感知的生成对抗性模仿学习（GA-GAIL），该学习通过引入第二个歧视者来训练政策，以与指示演示数据的第一个歧视者并行区分目标状态。这扩展了一个标准的盖尔框架，即使通过促进实现目标状态的目标状态歧视者，甚至可以从不完美的演示中学习理想的政策。此外，GA-GAIL采用熵最大化的深层P-NETWORK（EDPN）作为发电机，该发电机考虑了策略更新中的平滑度和因果熵，以从两个歧视者中获得稳定的政策学习。我们提出的方法成功地应用于两项真正的布料操作任务：将手帕翻过来折叠衣服。我们确认它在没有特定特定任务奖励功能设计的情况下学习了布料操作政策。实际实验的视频可在https://youtu.be/h_nii2ooure上获得。

translated by 谷歌翻译

Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement Learning with Domain Randomization

Yuki Kadokawa , Lingwei Zhu , Yoshihisa Tsurumine , Takamitsu Matsubara

分类：机器人 | 机器学习

2022-07-29

用域随机化的深度强化学习在各种模拟中以随机物理和传感器模型参数学习了控制策略，以在零照片的环境中转移到现实世界。但是，由于策略更新的不稳定，当随机参数的范围广泛时，通常需要大量样本来学习有效的政策。为了减轻此问题，我们提出了一种名为环状策略蒸馏（CPD）的样品效率方法。 CPD将随机参数的范围分为几个小子域，并为每个子域分配局部策略。然后，在{\ it循环}将目标子域转变为相邻子域并使用单调策略改善方案来利用邻居子域的学习值/策略时，进行了本地策略的学习。最后，所有博学的本地政策都被蒸馏到SIM到现实转移的全球政策中。 CPD的有效性和样品效率通过四个任务（来自Mujoco的Openaigym和Pusher，游泳者和HalfCheetah的钟形）的模拟来证明，以及一项现实机器人球派遣任务。

translated by 谷歌翻译

Randomized-to-Canonical Model Predictive Control for Real-world Visual Robotic Manipulation

Tomoya Yamanokuchi , Yuhwan Kwon , Yoshihisa Tsurumine , Eiji Uchibe , Jun Morimoto , Takamitsu Matsubara

分类：机器人 | 机器学习

2022-07-05

最近，许多作品探索了SIM到真实传递的可传递视觉模型预测性控制（MPC）。但是，这样的作品仅限于一次性转移，必须收集一次现实世界的数据才能执行SIM到实现的传输，这仍然是一项重大的人类努力，在将模拟中学到的模型转移到真实的新域中所学的模型世界。为了减轻这个问题，我们首先提出了一个新型的模型学习框架，称为Kalman随机到典型模型（KRC模型）。该框架能够从随机图像中提取与任务相关的内在特征及其动力学。然后，我们建议使用KRC模型的Kalman随机到典型模型预测控制（KRC-MPC）作为零射击的SIM到真实转移视觉MPC。通过仿真和现实世界中的机器人手和模拟中的块配合任务，通过机器人手通过机器人手来评估我们方法的有效性。实验结果表明，KRC-MPC可以以零拍的方式应用于各种真实域和任务。

translated by 谷歌翻译

Demystifying the COVID-19 vaccine discourse on Twitter

Zainab Zaidi , Mengbin Ye , Fergus John Samon , Abdisalam Jama , Binduja Gopalakrishnan , Chenhao Gu , Shanika Karunasekera , Jamie Evans , Yoshihisa Kashima

分类：自然语言处理

2022-08-29

对社交媒体上的COVID-19疫苗接种的公众讨论不仅对于解决当前的Covid-19-19大流行，而且对于未来的病原体爆发而言至关重要。我们检查了一个Twitter数据集，其中包含7500万英文推文，讨论2020年3月至2021年3月的Covid-19疫苗接种。我们使用自然语言处理（NLP）技术培训了一种立场检测算法，以将推文分为“反Vax”或“ pro-Vax”或“ Pro-Vax” '，并使用主题建模技术检查话语的主要主题。虽然Pro-Vax推文（3700万）远远超过反VAX推文（1000万），但两种姿态的大多数推文（63％的反VAX和53％的Pro-Vax推文）都来自双稳定的用户，他们都发布了两者在观察期间，亲和反VAX推文。 Pro-Vax推文主要集中在疫苗开发上，而反VAX推文则涵盖了广泛的主题，其中一些主题包括真正的问题，尽管存在很大的虚假性。尽管从相反的角度讨论了这两个立场，但两种立场都是常见的。模因和笑话是最转推消息之一。尽管对反vax话语的两极分化和在线流行的担忧是毫无根据的，但针对虚假的有针对性的反驳很重要。

translated by 谷歌翻译

HTML版本

Deep Learning-based Massive MIMO CSI Acquisition for 5G Evolution and 6G

Xin Wang , Xiaolin Hou , Lan Chen , Yoshihisa Kishiyama , Takahiro Asai

分类：机器学习

2022-06-10

最近，受到许多领域的成功应用程序的启发，深度学习（DL）的CSI获取技术已获得了学术界和行业的大量研究兴趣。考虑到第五代（5G）新无线电（NR）网络的实际反馈机制，我们提出了针对CSI（AI4CSI）的两个实施方案，基于DL的接收器和端到端设计。根据光谱效率（SE），反馈开销和计算复杂性，在5G NR网络中评估了提出的AI4CSI方案，并与遗产方案进行了比较。为了证明这些方案是否可以在现实生活中使用，在我们的研究中使用了基于建模的基于建模的通道数据和实际测量的通道。当仅将基于DL的CSI采集应用于接收器几乎没有空气接口影响时，它在适度的反馈开销水平下提供了大约25 \％的SE增益。在5G演变过程中，将其部署在当前的5G网络中是可行的。对于基于端到端DL的CSI增强功能，评估还证明了其在SE上的额外性能增长，与基于DL的接收器相比，为6％-26％，与传统CSI方案相比，其33％-58％。考虑到其对空气接口设计的巨大影响，它将是第六代（6G）网络的候选技术，其中可以使用人工智能设计的空气界面。

translated by 谷歌翻译